データを操作するイメージを身につけよう : 集約系の処理編
はじめに:
集約系処理の方法は様々ありますが、こちらのブログでは集約系の処理を行う際に使える変換ツールをまとめてご紹介します。変換用の7つのツールが変換カテゴリに存在し、さらに列作成ツールがラボラトリーのカテゴリーに存在しています。オレンジ色の全てのツールが一覧で以下の通りになります。
各ツールの特徴と使い道:
1) アレンジツール:
アレンジツールでは、データの並べ替えする為にデータの列を手動で転置することが出来ます。行が複数の行に変換します。キーフィルドを選べれるようになって選択した列の説明を加えばその説明が新しい列のデータとして現れます。以下の手順で操作が行われます。
サンプルデータ
ツールの設定では ”列” を追加し現れるポップアップボックスでは ”列のヘッダー” を入力します。必要なフィールドをチェックし ”Ok” 押します。ツールの設定画面が再び現れ説明の所に新列名を加えます。グループ化するフィールドもここで選べます。
上記の設定によりデータが以下のように変化します。
2) クロスタブツール:
クロスタブツールでは単一の既存の列に含まれる各カテゴリ別の値に1つの新しい列を作成することが出来ます。垂直のレイアウトからより水平のレイアウトにデータをピボット化に出来ます。
このツールを使用すると以下の図の通りに変化が行われます。
サンプルデータ
ツールの設定画面では列ヘッダーの変更を行う為のフィールドを選びその値になるフィールドも選びます。集計方法を選択します。
上記の設定でグループ化するかしないかによって結果が以下のように変わります。
3) レコードカウントツール:
レコードカウントツールでは、入力するデータにあるレコード個数の単一のカウントを返します。集計ツールもレコードの個数をカウントするために使用することが出来ますが、そこに通過してきたレコードの個数がゼロの場合は、出力は生成されず、それによりワークフローは失敗となる場合があります。 その一方でレコードカウントツールはゼロの値を返すので、それはワークフローのエラーを避けるために役立つます。
このツールがマクロとして作られ Alteryx Designer と共に出荷されてます。その構造は以下の通りです。
4) 加重平均ツール:
加重平均ツールでは、受信データフィールドの加重平均を計算します。加重平均は一般的に言う平均に似ていますが、全ての行が平均に等しく寄与するのではなく、値の重み (ウェイト値) を加味して、一部の行が他の行よりも寄与することを意味します。
ツールの設定ではドロップダウンメニューを使用して、値列と重み列を選択します。選択できるようにするには、両方の列が数値データである必要があります。
複数の列を選択し、受信データから加重平均をグループ化します。 グループ化することによってフィールド列の各値ごとに個別の加重平均が算出されます。
加重平均ツールはマクロとして作られ Alteryx Designer と共に出荷されてます。その構造は以下の通りです。
5) 累計ツール:
累計ツールでは入力するデータのレコードごとの累積合計を計算し新たな列として現れます。新しい列が、フィールドの累計を示すRunTot_の接頭辞が付いたデータの最後に追加されます。
グループ化の任意オプションを選択したらグループ化した累積合計が計算されます。
6) 転置ツール:
転置ツールは、複数の水平フィールドに保持された値を単一の列に移動します。 選択したフィールドは変更されませんが、転置データフィールドで作成された新しい行で重複されます。
このツールを使用すると以下の図の通りに変化が行われます。
ツール設定の一番下にあるボタンで、入力データから欠落している場合にツールがどのように対応するかを指定することができます。
サンプルデータ
キー列は選んでない際に以下のように結果が現れます。
キー列を選んだ際に以下のようにグループ化された結果が現れます。
7) 集計ツール:
集計ツールでは、いろんな要約計算を実行することができます: 加算、最小/最大、グループ化、カウント、文字列の連結、数学空間オブジェクトの処理など。集計関数の種類について詳しい説明がこちらからです。
計算結果のみを出力することがある為に結合ツールでは、集計ツールの結果を元のデータに戻って結合する為に使用できます。
集計ツールが以下のように使えます。
8) 列作成ツール:
列作成ツールがあくまでもラボラトリー用なツールで、プロダクション用で使わないほうが良いです。このツールまだ完成しておらずソフトが更新した際に変化する可能性があります。
このツールでは、データの行を取得しラップで整列します。列の数を指定してデータのレイアウトを水平方向または垂直方向に変化します。
必要に応じてレポートまたは表示の目的に変えることで、テーブル内に収まるようにレコードをレイアウトします。例えば 50 レコードのリストを表示するのではなくそのうち、5つの列のテーブルにそれらの 10 行 レコードをラップすることができます。
任意オプションによってデータをグループ化にすることも出来ます。
最後に:
集約系処理に関するツールのご紹介とその使い方についてこちらの記事でご説明しました。
Alteryxの導入なら、クラスメソッドにおまかせください
日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。